home *** CD-ROM | disk | FTP | other *** search
/ SGI Freeware 2002 November / SGI Freeware 2002 November - Disc 2.iso / dist / fw_glimpse.idb / usr / freeware / src / glimpse-3.0 / libtemplate / template / print-urlrefs.c.z / print-urlrefs.c
C/C++ Source or Header  |  1997-09-09  |  5KB  |  130 lines

  1. static char rcsid[] = "$Id: print-urlrefs.c,v 1.9 1995/01/10 16:30:39 hardy Exp $";
  2. /*
  3.  *  print-urlrefs - Reads SOIF and prints normalized URLs from the 
  4.  *  URL-References attribute.  Used to extract URLs from HTML object sums.
  5.  *
  6.  *  Usage: print-urlrefs
  7.  *
  8.  *  Darren Hardy, hardy@cs.colorado.edu, July 1994
  9.  *
  10.  *  ----------------------------------------------------------------------
  11.  *  Copyright (c) 1994, 1995.  All rights reserved.
  12.  *  
  13.  *          Mic Bowman of Transarc Corporation.
  14.  *          Peter Danzig of the University of Southern California.
  15.  *          Darren R. Hardy of the University of Colorado at Boulder.
  16.  *          Udi Manber of the University of Arizona.
  17.  *          Michael F. Schwartz of the University of Colorado at Boulder. 
  18.  *  
  19.  *  This copyright notice applies to all code in Harvest other than
  20.  *  subsystems developed elsewhere, which contain other copyright notices
  21.  *  in their source text.
  22.  *  
  23.  *  The Harvest software was developed by the Internet Research Task
  24.  *  Force Research Group on Resource Discovery (IRTF-RD).  The Harvest
  25.  *  software may be used for academic, research, government, and internal
  26.  *  business purposes without charge.  If you wish to sell or distribute
  27.  *  the Harvest software to commercial clients or partners, you must
  28.  *  license the software.  See
  29.  *  http://harvest.cs.colorado.edu/harvest/copyright,licensing.html#licensing.
  30.  *  
  31.  *  The Harvest software is provided ``as is'', without express or
  32.  *  implied warranty, and with no support nor obligation to assist in its
  33.  *  use, correction, modification or enhancement.  We assume no liability
  34.  *  with respect to the infringement of copyrights, trade secrets, or any
  35.  *  patents, and are not responsible for consequential damages.  Proper
  36.  *  use of the Harvest software is entirely the responsibility of the user.
  37.  *  
  38.  *  For those who are using Harvest for non-commercial purposes, you may
  39.  *  make derivative works, subject to the following constraints:
  40.  *  
  41.  *  - You must include the above copyright notice and these accompanying 
  42.  *    paragraphs in all forms of derivative works, and any documentation 
  43.  *    and other materials related to such distribution and use acknowledge 
  44.  *    that the software was developed at the above institutions.
  45.  *  
  46.  *  - You must notify IRTF-RD regarding your distribution of the 
  47.  *    derivative work.
  48.  *  
  49.  *  - You must clearly notify users that your are distributing a modified 
  50.  *    version and not the original Harvest software.
  51.  *  
  52.  *  - Any derivative product is also subject to the restrictions of the 
  53.  *    copyright, including distribution and use limitations.
  54.  */
  55. #include <stdio.h>
  56. #include <string.h>
  57. #include <time.h>
  58. #include "util.h"
  59. #include "url.h"
  60. #include "template.h"
  61.  
  62. static void print_urlrefs(t)
  63. Template *t;
  64. {
  65.     AVPair *avp;
  66.     char *s, url[BUFSIZ];
  67.     URL *up;
  68.  
  69.     if ((avp = extract_AVPair(t->list, "URL-References")) == NULL)
  70.         return;
  71.  
  72.     /* For each line in the data, grab the URL */
  73.         for (s = strtok(avp->value, "\n"); s != NULL; s = strtok(NULL, "\n")) {
  74.         url[0] = '\0';
  75.  
  76.         /* Remove poorly formated lines */
  77.         if (strchr(s, '=') || strchr(s, ' ') || strchr(s, '<'))
  78.             continue;
  79.         if (strncmp(s, "mailto:", 6) == 0)
  80.             continue;
  81.         if (strncmp(s, "http:", 5) == 0 && !strstr(s, "://"))
  82.             continue;
  83.  
  84.                 if (strstr(s, "://") != NULL) {
  85.             /* Is this URL ok as-is?  If so, save it */
  86.                         strcpy(url, s);
  87.                 } else if (s[0] == '/') {
  88.             /* This URL is relative to the top of t->url */
  89.                         char *thishost = t->url + strlen("http://"), *z;
  90.  
  91.                         z = strchr(thishost, '/');
  92.                         if (z != NULL) *z = '\0';
  93.                         sprintf(url, "http:/%s%s", thishost, s);
  94.                         if (z != NULL) *z = '/';
  95.                 } else {
  96.             /* This URL is relative to t->url */
  97.             char *z = strdup(t->url), *p;
  98.  
  99.             if ((p = strrchr(z, '/')) != NULL) *p = '\0';
  100.                         sprintf(url, "%s/%s", z, s);
  101.             xfree(z);
  102.                 }
  103.         /* If the URL is set, then parse it and print if ok */
  104.         if (url[0]) {
  105.             if ((up = url_open(url)) != NULL) {
  106.                 printf("%s\n", up->url);
  107.                 url_close(up);
  108.             }
  109.         }
  110.     }
  111. }
  112.  
  113.  
  114. int main(argc, argv)
  115. int argc;
  116. char *argv[];
  117. {
  118.     Template *template;
  119.     Buffer *b;
  120.  
  121.     init_parse_template_file(stdin);
  122.     while ((template = parse_template()) != NULL) {
  123.         print_urlrefs(template);
  124.         printf("%s\n", template->url);
  125.         free_template(template);    
  126.     }
  127.     finish_parse_template();
  128.     exit(0);
  129. }
  130.